Definition Was ist Google Gemini?

Aktualisiert am 20.03.2025 Von Dipl.-Ing. (FH) Stefan Luber und Berk Kutsal 5 min Lesedauer

Anbieter zum Thema

Google Gemini ist ein multimodales KI-Modell, das auf Forschung von DeepMind basiert und von Google entwickelt wurde. Das Modell gehört zu einer neuen Generation von KI-Anwendungen, die komplexe Aufgaben in der Datenverarbeitung und -analyse bewältigen.

Google Gemini: Googles neuestes KI-Modell mit multimodalen Fähigkeiten. (Bild:  Google)
Google Gemini: Googles neuestes KI-Modell mit multimodalen Fähigkeiten.
(Bild: Google)

Google Gemini wurde im Dezember 2023 als generative Künstliche Intelligenz vorgestellt und von Google DeepMind entwickelt. Laut Google ist es das größte, leistungsstärkste und vielseitigste große Sprachmodell (Large Language Model – LLM), das jemals von Google realisiert wurde. Ursprünglich als Bard bezeichnet, wurde der Chatbot im Februar 2024 in Gemini umbenannt. Somit bezeichnet Gemini sowohl den Google Chatbot als auch das zugrunde liegenden Sprachmodell.

Die verschiedenen Gemini-Modelle im Überblick

Das Sprachmodell Gemini steht in drei Größen und Leistungsstufen zur Auswahl. Sie sind für verschiedene Anforderungen konzipiert und setzen unterschiedliche Computing-Leistungen voraus.

Die drei Gemini-Modellgrößen sind:

  • Gemini Nano: Kleinstes Gemini-Modell in den Größen Nano-1 und Nano-2. Für die lokale Ausführung zum Beispiel auf Smartphones vorgesehen.
  • Gemini Pro: Mittlere Modellgröße und Basisversion des multimodalen Gemini-KI-Modells.
  • Gemini Ultra: Leistungsfähigstes und größtes Gemini-Modell für komplexe multimodale Aufgabenstellungen. Unter anderem für die Gemini-Advanced-Version des Chatbots im Einsatz.

Entwicklung und Versionen

Die Entwicklung von Google Gemini verlief in schnellen Iterationen, wobei jede Version deutliche Sprünge nach vorn machte. Ein kurzer Blick auf die wichtigsten Meilensteine:

  • 1. Gemini 1.0 (Dezember 2023) – Einführung des ersten multimodalen KI-Modells von Google.
  • 2. Gemini 1.5 (Frühjahr 2024) – Verbesserte Skalierbarkeit und Rekord-Kontextfenster von einer Million Tokens.
  • 3. Gemini 2.0 (Dezember 2024) – Einführung agentischer Fähigkeiten und neuer multimodaler Verarbeitung.
  • 4. Gemini 2.5 (Mai 2025) – Bietet verbesserte Intelligenz, Multimodalität, längere Kontexte und optimierte Leistung für komplexe (Pro) und schnelle/günstige (Flash) Anwendungen.

Google Gemini basiert auf den Grundlagen früherer Google-Sprachmodelle wie LaMDA und PaLM 2 und nutzt eine Transformer-Architektur, die für maximale Skalierbarkeit und Leistungsfähigkeit optimiert wurde.

Zu den Schlüsselmerkmalen gehören eine unterstützte Kontextlänge von bis zu einer Million Token, ein Multi-Query-Aufmerksamkeitsmechanismus für effizientere Verarbeitung, der Einsatz modernster KI-Beschleuniger wie TPU v5 für Training und Inferenz sowie multimodale Fähigkeiten durch integriertes Training auf verschiedenen Datentypen.

Ein weiteres markantes Merkmal von Gemini ist die Verwendung der „Mixture of Experts“ (MoE)-Technologie. Dadurch kann das Modell spezielle Teile des Netzwerks selektiv aktivieren, was die Rechenressourcen optimal nutzt und die Effizienz erhöht. Das ermöglicht es Gemini, anspruchsvolle Aufgaben in kürzerer Zeit zu verarbeiten.

Funktionen von Gemini

  • Multimodalität: Gemini kann Texte, Bilder, Videos und Audiosignale verarbeiten. Diese Fähigkeit eröffnet zahlreiche Anwendungsmöglichkeiten, etwa in der Content-Erstellung oder in der Analyse komplexer Daten.
  • Lange Kontextfenster: Das 1-Million-Tokens-Fenster ermöglicht es Gemini, Informationen aus umfangreichen Dokumenten zusammenzufassen und zu analysieren.
  • Effiziente Skalierung: Das Design von Gemini erlaubt ein schnelles Lernen und eine effiziente Anwendung, wodurch der Ressourcenverbrauch während des Trainings optimiert wird.
  • Native Tool-Nutzung: Das Modell ist in der Lage, Tools wie Google-Suchanfragen oder benutzerdefinierte Funktionen direkt zu integrieren, wodurch seine Funktionalität erweitert wird.
  • Multilinguale Fähigkeiten: Gemini unterstützt mehrere Sprachen sowohl bei der Eingabe als auch bei der Ausgabe, was seine Anwendung international fördert.

Mit der Einführung von Gemini 2.0 im Februar 2025 wurden bedeutende Verbesserungen und neue Funktionen implementiert:

Gemini 2.0 Flash:

  • Bietet verbesserte Leistung, native Tool-Nutzung, multimodale Generierung und ein 1-Million-Tokens-Fenster.
  • Unterstützt multimodale Eingaben (Audio, Bilder, Videos, Text) sowie die textbasierte Ausgabe.
  • Entwicklerversionen für experimentelle Bildgenerierung sind verfügbar.

Gemini 2.0 Flash-Lite:

  • Ein neues Modell, das für Kosteneffizienz und geringe Latenz optimiert ist und Gemini 1.5 Flash in den meisten Benchmarks übertrifft.

Gemini 2.0 Pro Experimental:

  • Das leistungsstärkste Modell der zweiten Generation mit ausgeprägten Denk- und Lernfähigkeiten und einem Zwei-Millionen-Tokens-Kontextfenster.

Gemini 2.0 Flash Thinking Experimental:

  • Ein verbessertes Modell, das komplexe Probleme lösen und seine „Denkprozesse“ demonstrieren kann.

Gemini 2.5 Flash:

Ist jetzt für alle Nutzer in der Gemini App verfügbar. Es soll Anfang Juni 2025 allgemein in Google AI Studio für Entwickler und in Vertex AI für Unternehmen verfügbar gemacht werden.

Gemini 2.5 Pro:

Ist als Preview für Entwickler im Google AI Studio und in Vertex AI verfügbar. Es wird erwartet, dass es kurz nach Gemini 2.5 Flash allgemein verfügbar sein wird.

Neue Funktionen der Gemini-App:

  • Erweiterte Funktionen für Deep Research, Personalisierung und Integration mit Google-Diensten, wodurch maßgeschneiderte Antworten möglich sind.

Gemini Advanced:

  • Bietet Zugang zu den leistungsfähigsten Modellen und ermöglicht das Hochladen und die Analyse von bis zu 1.500 Seiten an Dokumenten oder 30.000 Zeilen Code.

Google hat zudem neue Funktionen für die Gemini-App eingeführt, darunter „Canvas“ und „Audio Overview“. „Canvas“ bietet einen Arbeitsbereich innerhalb von Gemini zum Erstellen und Verfeinern von Dokumenten und Code in Echtzeit, während „Audio Overview“ schriftliche Materialien in eine Podcast-ähnliche Diskussion zwischen KI-Hosts verwandelt.

Die Architektur von Gemini

Die Architektur von Gemini baut auf den Grundlagen früherer Google-Sprachmodelle wie LaMDA und PaLM 2 auf. Das Modell nutzt eine Transformer-Architektur, die für maximale Skalierbarkeit und Leistungsfähigkeit optimiert wurde.

Einige Schlüsselmerkmale der Gemini-Architektur sind:

  • Unterstützte Kontextlänge von bis zu einer Million Token
  • Multi-Query-Aufmerksamkeitsmechanismus für effizientere Verarbeitung
  • Einsatz modernster KI-Beschleuniger wie TPU v5 für Training und Inferenz
  • Multimodale Fähigkeiten durch integriertes Training auf verschiedenen Datentypen

Anders als viele multimodale Modell, die verschiedene Modalitäten nachträglich zusammenführen, wurde Gemini direkt mit multimodalen Daten trainiert. Als Trainingsplattform setzte Google Rechner-Cluster und Tensor Processing Units (TPUs) neuester Generation v4 und v5 als KI-Beschleuniger ein.

Gemini steht in Konkurrenz zu anderen LLMs wie den GPT-Sprachmodellen von OpenAI (GPT-4 und andere) und dem auf diesen Sprachmodellen aufbauenden Chatbot ChatGPT.

Gemini in Google-Produkten

Google beabsichtigt, die generative KI Gemini in zahlreiche eigene Produkte zu integrieren bzw. hat das bereits begonnen. Gemini soll die Fähigkeiten der Websuche, des Chrome-Browsers, des Gmail-Services, verschiedener Entwicklungstools und weiterer Produkte und Services verbessern und erweitern.

Auch in Google-Diensten wie Google Cloud oder Workspace wird Gemini integriert. Aus Google Duet AI wurde Gemini für Workspace.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Was ist Google Robotics?

Im März 2025 stellte Google Gemini Robotics vor, eine speziell auf die Robotikbranche zugeschnittene KI-Modelle, die verschiedene Robotertypen, einschließlich industrieller humanoider Roboter, unterstützen. Diese Modelle sollen Unternehmen dabei helfen, Kosten zu senken und die Markteinführung zu beschleunigen.

(ID:49916568)